大规模的视觉预训练在各种下游任务中都表现出了令人印象深刻的进步。现有方法主要是通过图像和文本的全局表示形式的相似性或对图像和文本特征上的高级交叉模式关注来对跨模式对齐进行建模。但是,由于只有全局图像文本对齐信息,因此他们无法明确学习视觉区域和文本短语之间的细粒语义对齐。在本文中,我们介绍了Loupe,这是一种精细的语义一致性视觉语言预训练框架,该框架从新颖的游戏理论互动的角度学习了细粒度的语义对齐。为了有效地计算游戏理论相互作用,我们进一步提出了一种不确定性感知的神经Shapley交互学习模块。实验表明,Loupe在图像文本检索基准测试中实现了最新的。如果没有任何对象级的人类注释和微调,Loupe就可以在对象检测和视觉接地方面实现竞争性能。更重要的是,Loupe从大规模的原始图像文本对学习细粒语义的新方向。
translated by 谷歌翻译
了解人类情绪是智能机器人提供更好的人类机器人相互作用的关键能力。现有作品仅限于修剪视频级别的情感分类,无法找到与情感相对应的时间窗口。在本文中,我们介绍了一项新任务,称为视频中的时间情感本地化(TEL),该任务旨在检测人类的情感并将其相应的时间边界定位在带有校准字幕的未修剪视频中。与时间动作本地化相比,TEL提出了三个独特的挑战:1)情绪的时间动态极为多样; 2)情绪提示都嵌入了外观和复杂的情节中; 3)细粒度的时间注释是复杂且劳动密集型的。为了应对前两个挑战,我们提出了一个新颖的扩张上下文集成网络,该网络与粗细的两流体系结构。粗流通过建模多粒性时间上下文来捕获各种时间动力学。细流通过推理从粗流的多晶格时间上下文之间的依赖性来实现复杂的理解,并将它们自适应地集成到细粒度的视频段特征中。为了应对第三个挑战,我们引入了跨模式共识学习范式,该范式利用了对齐视频和字幕之间的固有语义共识,以实现弱监督的学习。我们为新的测试集提供了3,000个手动注释的时间边界,因此可以对TEL问题进行未来的研究进行定量评估。广泛的实验显示了我们方法对时间情绪定位的有效性。这项工作的存储库位于https://github.com/yyjmjc/temporal-emotion-localization-in-videos。
translated by 谷歌翻译
基于内容的图像检索(CIR)旨在通过同时理解示例图像和互补文本的组成来搜索目标图像,这可能会影响各种各样的现实世界应用,例如互联网搜索和时尚检索。在这种情况下,输入图像是搜索的直观上下文和背景,而相应的语言明确请求有关如何修改查询图像的特定特征以获取预期目标图像的新特征。此任务具有挑战性,因为它需要通过合并跨粒度语义更新来学习和理解复合图像文本表示。在本文中,我们通过小说\下划线{\ textbf {b}}来解决此任务\ textbf {s}} ition(\ textbf {boss})带有混合反事实训练框架,通过从两个先前被忽视的角度研究它,从而为CIR任务提供了新的启示:\ emph {隐式自下而上的自下而上的sisitiol语言表示}和sisiol语言表示}和\ emph {显式晶状体构造的明显细粒度对应}。一方面,我们利用了从底部本地特征到顶部全局语义的跨模式嵌入的隐式相互作用和组成,从而保留和转换视觉表示在多个连续步骤中以语言语义为条件的视觉表示,以进行有效的目标图像搜索。另一方面,我们设计了一种混合反事实培训策略,可以减少模型对类似查询的歧义。
translated by 谷歌翻译
在本报告中,我们向CVPR 2022中的EGO4D自然语言查询(NLQ)挑战介绍了Reler@zju-alibaba提交。给定视频剪辑和文本查询,该挑战的目标是确定视频的时间时刻剪辑可以获得查询的答案。为了解决这项任务,我们提出了一个多尺度的跨模式变压器和视频框架级对比度损失,以完全发现语言查询与视频剪辑之间的相关性。此外,我们提出了两种数据增强策略,以增加培训样本的多样性。实验结果证明了我们方法的有效性。最后的提交在排行榜上排名第一。
translated by 谷歌翻译
香草无监督的域适应方法倾向于用固定的神经体系结构优化模型,在现实世界中,这不是很实际的,因为目标数据通常由不同的资源有限的设备处理。因此,促进各种设备的建筑适应非常必要。在本文中,我们引入了一个简单的框架,可靠的域名适应,以通过重量分担模型库来改善跨域的概括,从中可以采样不同能力的模型,以适应不同的准确性效率折衷。该框架中的主要挑战在于同时提高模型库中众多模型的适应性。为了解决这个问题,我们开发了一种随机的集合蒸馏方法,以完全利用模型库中的互补知识进行模型间相互作用。然而,考虑到模型间相互作用与模型适应之间的优化冲突,我们将现有的BI-CLAPERIFIER域混淆体系结构扩大到优化分离的三级分类器对应物中。优化模型库后,通过我们提出的无监督性能评估指标利用体系结构的适应。在各种资源限制下,我们的框架超过了其他竞争方法,在多个基准测试方面的利润很大。还值得强调的是,即使计算复杂性降低到$ 1/64 $,我们的框架也可以保护仅源模型的性能提高。代码将在https://github.com/hikvision-research/slimda上找到。
translated by 谷歌翻译
半监督的对象检测在平均教师驱动的自我训练的发展中取得了重大进展。尽管结果有令人鼓舞,但在先前的工作中尚未完全探索标签不匹配问题,从而导致自训练期间严重确认偏见。在本文中,我们从两个不同但互补的角度(即分布级别和实例级别)提出了一个简单而有效的标签框架。对于前者,根据Monte Carlo采样,可以合理地近似来自标记数据的未标记数据的类分布。在这种弱监督提示的指导下,我们引入了一个重新分配卑鄙的老师,该老师利用自适应标签 - 分布意识到的信心阈值来生成无偏见的伪标签来推动学生学习。对于后一个,存在着跨教师模型的被忽视的标签分配歧义问题。为了解决这个问题,我们提出了一种新的标签分配机制,用于自我训练框架,即提案自我分配,该机制将学生的建议注入教师,并生成准确的伪标签,以相应地匹配学生模型中的每个建议。 MS-Coco和Pascal-VOC数据集的实验证明了我们提出的框架与其他最先进的框架相当优越。代码将在https://github.com/hikvision-research/ssod上找到。
translated by 谷歌翻译
无监督域自适应对象检测的自我训练是一项艰巨的任务,其性能在很大程度上取决于伪盒的质量。尽管结果有令人鼓舞,但先前的工作在很大程度上忽略了自训练期间伪箱的不确定性。在本文中,我们提出了一个简单而有效的框架,称为概率教师(PT),该框架旨在从逐渐发展的教师中捕获未标记的目标数据的不确定性,并以互惠互利的方式指导学生学习学生。具体而言,我们建议利用不确定性引导的一致性训练来促进分类适应和本地化适应,而不是通过精心设计的置信度阈值过滤伪盒。此外,我们与定位适应同时进行锚定适应性,因为锚被视为可学习的参数。与此框架一起,我们还提出了一种新颖的熵局灶性损失(EFL),以进一步促进不确定性引导的自我训练。配备了EFL,PT的表现优于所有以前的基线,并实现了新的最先进。
translated by 谷歌翻译
受视力语言预训练模型的显着零击概括能力的启发,我们试图利用剪辑模型的监督来减轻数据标记的负担。然而,这种监督不可避免地包含标签噪声,从而大大降低了分类模型的判别能力。在这项工作中,我们提出了Transductive Clip,这是一个新型的框架,用于学习具有从头开始的嘈杂标签的分类网络。首先,提出了一种类似的对比学习机制来减轻对伪标签的依赖并提高对嘈杂标签的耐受性。其次,合奏标签被用作伪标签更新策略,以稳定具有嘈杂标签的深神经网络的培训。该框架可以通过组合两种技术有效地从夹子模型中降低嘈杂标签的影响。多个基准数据集的实验证明了比其他最新方法的实质性改进。
translated by 谷歌翻译
Multiconer共享的任务旨在检测在多种语言的简短和低文本设置中,在语义上模棱两可且复杂的命名实体。缺乏上下文使人们对歧义的命名实体的认识充满挑战。为了减轻此问题,我们的团队Damo-NLP提出了一个基于知识的系统,我们在其中建立了基于Wikipedia的多语言知识基础,以向指定的实体识别(NER)模型提供相关的上下文信息。给定输入句子,我们的系统有效地从知识库中检索了相关上下文。然后,将原始输入句子加强此类上下文信息,从而可以捕获明显更好的上下文化令牌表示。我们的系统在Multiconer共享任务中赢得了13个曲目中的10个。
translated by 谷歌翻译
培训RGB-D突出物体检测(SOD)的深层模型通常需要大量标记的RGB-D图像。然而,不容易获取RGB-D数据,这限制了RGB-D SOD技术的发展。为了减轻这个问题,我们介绍了双半RGB-D突出物体检测网络(DS-Net),以利用未标记的RGB图像来提高RGB-D显着性检测。我们首先设计了深度去耦卷积神经网络(DDCNN),其包含深度估计分支和显着性检测分支。深度估计分支用RGB-D图像训练,然后用于估计所有未标记的RGB图像的伪深度映射以形成配对数据。显着性检测分支用于熔断RGB特征和深度特征以预测RGB-D显着性。然后,整个DDCNN被分配为师生学生框架中的骨干,用于半监督学习。此外,我们还引入了对未标记数据的中间注意力和显着性图的一致性损失,以及标记数据的监督深度和显着性损失。七种广泛使用的基准数据集上的实验结果表明,我们的DDCNN定量和定性地优于最先进的方法。我们还证明,即使在使用具有伪深度图的RGB图像时,我们的半监控DS-Net也可以进一步提高性能。
translated by 谷歌翻译